#probabilidad de elección condicional

Notas sobre Aprendizaje por Refuerzo Inverso Offline y DDC

Descubre cómo dos comunidades unifican enfoques para recuperar recompensas desde datos offline. Análisis de identificación y algoritmos IRL/DDC.